This paper proposes a data and Machine Learning-based forecasting solution for the Telecommunications network-rollout planning problem. Milestone completion-time estimation is crucial to network-rollout planning; accurate estimates enable better crew utilisation and optimised cost of materials and logistics. Using historical data of milestone completion times, a model needs to incorporate domain knowledge, handle noise and yet be interpretable to project managers. This paper proposes partition-based regression models that incorporate data-driven statistical models within each partition, as a solution to the problem. Benchmarking experiments demonstrate that the proposed approach obtains competitive to better performance, at a small fraction of the model complexity of the best alternative approach based on Gradient Boosting. Experiments also demonstrate that the proposed approach is effective for both short and long-range forecasts. The proposed idea is applicable in any context requiring time-series regression with noisy and attributed data.
translated by 谷歌翻译
语音数据的收集价格昂贵,并且对其来源非常敏感。通常,组织独立收集小型数据集供自己使用,但通常这些数据对于机器学习的需求而言并不是表现。组织可以将这些数据集汇总在一起,并共同建立强大的ASR系统。但是,在明显的情况下,在知识产权损失以及存在于数据集中的个人的隐私方面,共享数据具有巨大的风险。在本文中,我们提供了一种潜在的解决方案,可以在多个组织中学习ML模型,在该组织中我们可以提供数学保证限制隐私损失。我们使用联合学习方法建立在强大的差异隐私技术基础上。我们将其应用于Senone分类原型,并证明该模型随着私人数据的添加而改善,同时仍然尊重隐私。
translated by 谷歌翻译
过度分化的神经网络倾向于完全符合嘈杂的训练数据,但在测试数据上概括。灵感来自这一实证观察,最近的工作试图了解在更简单的线性模型中的良性过度或无害插值的这种现象。以前的理论工作批判性地假设数据特征是统计独立的,或者输入数据是高维的;这会阻止具有结构化特征映射的一般非参数设置。在本文中,我们为再生内核希尔伯特空间中的上限回归和分类风险提供了一般和灵活的框架。关键贡献是我们的框架在数据革处矩阵上描述了精确的充分条件,在这种情况下发生无害的插值。我们的结果恢复了现有的独立功能结果(具有更简单的分析),但它们还表明,在更常规的环境中可能发生无害的插值,例如有界正常系统的功能。此外,我们的结果表明,以先前仅针对高斯特征的方式显示分类和回归性能之间的渐近分离。
translated by 谷歌翻译
上下文匪徒的模型选择是一个重要的互补问题,以便对固定式模型类进行后悔最小化。我们考虑最简单的模型选择实例:区分从线性上下文强盗问题中的简单的多武装强盗问题。即使在这种情况下,目前的最先进的方法以次优的方式探索,并且需要强烈的“特征分集”条件。在本文中,我们介绍了一种以数据适应方式探索的新算法,b)提供表单$ \ mathcal {o}的模型选择保证(d ^ {\ alpha} t ^ {1- \ alpha} )$,没有任何功能分集条件,其中$ d $表示线性模型的尺寸,$ t $表示圆数的总轮数。第一个算法享有“最佳世界”属性,恢复两种以后的分布假设,同时恢复两种结果。第二种删除分布假设,扩展了易于模型选择的范围。我们的方法在一些额外的假设下延伸到嵌套线性上下文匪徒之间的模型选择。
translated by 谷歌翻译
支持向量机(SVM)是一种完善的分类方法,其名称指的是称为支持向量的特定训练示例,该示例确定了分离超平面的最大边缘。与培训示例相比,当支持向量的数量少时,SVM分类器享有良好的概括属性。但是,最近的研究表明,在足够高维的线性分类问题中,尽管支持向量的扩散,但在所有训练示例都是支持向量的情况下,SVM仍可以很好地概括。在本文中,我们确定了这种支持矢量增殖现象的新的确定性等效性,并使用它们来(1)实质上扩大了该现象在高维环境中发生的条件,并且(2)证明了几乎匹配的逆向结果。
translated by 谷歌翻译